查看原文
其他

转型:从实验到大数据

安竹 芝麻豆的后花园 2023-01-03

记得十年前刚去曼大那会儿,我们的advisor问道,有没有人想做生物信息时,我们的脑袋摇得跟货郎鼓似的。估计当时的我怎么也想不到十年后会走上一条程序猿的不归路,但我还是很庆幸我选择了转型。

【1】

这十年间,我去了不少地方积累经验。先是去到英国,利用斑马鱼、果蝇和哺乳动物细胞作为模型,研究信号转导通路,其间收获了各种基本实验技能。虽然实验过程比较上蹿下跳,但像基本的分子克隆、细胞培养还算马马虎虎。不知是当时申请博士失意,还是自身能力原因,没拿到distinction,不过好在镀了层金。后来回国工作,一番折腾后,选择了的和专业相关的职位。先在北京做了一段时间技术员,后来去了苏州,算是找到了些许落地生根的感觉,当然最终我还是选择继续读书。

不知道是我运气不错,还是课题本身,刚进导师实验室的我似乎被委以重任,跟着实验室最资深的博后学单细胞RNA测序技术。虽说之前读书有学过怎么提取DNA,但RNA的话,当时我是一窍不通,甚至快离开英国前还在向一个同学请教怎么做荧光定量PCR(也就是现在大街小巷都熟知的核酸检测)。当时的我,想法很单纯:既然导师愿意在我提交申请三年后给我offer,我不能让导师失望,这也是在我申请的时候对导师许下的诺言。那时做单细胞测序不像现在可以用微流控芯片高通量捕捉细胞,虽然确实有报道说可以用流式细胞仪分单细胞,但同事尝试过多次后均以失败告终,于是唯一可行的办法则是在倒置显微镜的辅助下用微量移液器挑细胞。

作为我们那层的一姐,我的导师对单细胞实验要求是非常高的:要有绝对的质量,还要有足够的数量。“You have to pick five hundred cells!” 意思是每个病人的组织样本你都需要挑至少500个细胞!天呐,就算做一般实验移液五百次手都会抖,何况在显微镜下挑五百个单细胞!必须得保证显微镜下的视野里有适宜数量的细胞,否则要么挑到双细胞过不了QC,要么挑的周期过长,剩下的细胞会逐渐死去,细胞里的RNA也就此降解,实验失败。

挑细胞的日子是不好过的,因为往往手术样本下午才能拿到,解剖组织后分离单细胞要若干个小时,往往挑完足够数量的细胞已是后半夜。挑完细胞的日子是更不好过的,因为要构建cDNA文库然后片段化扩增并送测序。测序得等上一两个月,测序完毕给我们实验室做生信的同事又得有好一段时间。

如此一来,问题逐渐浮出水面。我花了将近两年的时间挑单细胞、建库并测序,但我并没有实际上手去分析我自己产生的数据。当然,这是当时的特殊环境造成的。一方面,使用Smart-seq2进行单细胞测序,尽管测序深度足够高,但即便我最终徒手挑出五千多个细胞并测序了大半,通量仍然是非常有限的。另一方面,因为时间有限,当我挑完细胞送测序并对组织样本做完组化往往就会又有新的样本需要处理。后来当我收集齐足够的样本,导师希望我能在其他生物分支领域“大展鸿图”,又是体外示踪,又是小分子药物。所以,我几乎没有时间,也没太多有效途径去学如何分析单细胞测序的数据。

【2】

时间一点点地流逝,直到我博士最后一年。那年是实验出结果的一年,所以实验几乎没停过。论文则是写了改,改了重做实验,再写,再改,再做实验,如此往复。但当时,我那两个师姐前后都找到了非常理想的工作,这无形中让我产生了不小的压力。

有竞争才会有前进的动力。在距离正常毕业时间七个月的时候我立下了flag,一定要在英国找到心仪的工作(因为我当时并不喜欢香港的氛围,也暂时不想回内地)。投简历差不多一个半月,回复的有将近一半。大部分婉拒的原因在于我还没毕业,或者岗位已名花有主。我甚至是有联系我硕士读书时认识的一个老师(上过他的暑期实验课),但就有这层关系,都没被考虑。

后来到了年底,终于有老板愿意面试我。先是一个做乳腺癌方向的老板。面试过程相对顺利,但对方上来就问,我的这个课题,哪部分是由我完成的。当时我很诧异,课题不都应该合作吗?我只好如实回答,实验部分是我做的,分析部分是我们实验室做生信(的同事做的)......还没等我说完,对方就示意我毋需继续回答,然后草草收场。申请的结果可想而知,后来再同那位老板联系,便再也没有任何回复。后来是一个研究所的老板给我面试机会,提了很多非常刁钻的问题:比如你听一个报告,哪个报告是讲得最差的?你在博士期间被导师批评的最惨的一次原因是什么?你如果来这研究所工作,可能面对的最大的挑战是什么?结果到了最后这个问题,我给出了面试之后才意识到的自杀式答案:我觉得最大的挑战可能是生信分析。后来我才知道,原来人家只招会做生信的,并且还得有生物基础的。

第二次面试失败给了我沉重的教训:一方面,对那些问题,平时缺乏思考,至少是批判性思考;另一方面,但凡自己做的测序实验,必须要学会自己分析!依赖第三方分析数据的后果是显而易见的:你做了全部的实验获得了数据,然后对生信同事给的一大堆电子表格,一个个按自己的逻辑筛选出标志基因(markers),接着设计并实施下游实验去验证你所提出的假说,最后你做出来的得不到认可,因为数据是别人分析的。当然真当你不做实验只分析数据,别人又会说数据是别人产生的和你做生信的无关。所以,唯一能有效解决这两难问题的最佳方法则是,从数据采集到分析到验证由同一个人完成。这时,如果还有人说样本是病人的,则可在致谢部分提到,因此无伤大雅了。

【3】

既然问题的症结已经明确,解决的方法就显得相对容易。后来我转变了对数据分析的态度,开始想办法自学生信。虽然之前有上过学校举办的培训课,但后来还是一窍不通。当然我也有问我们实验室做生信的同事,毕竟我当时已经要接受第三个面试,临时抱佛脚还是很有必要的。可能是我思想转变的缘故,意外中斩获了这个offer,也是我目前的工作。

虽说当时唯一的offer最后成为了现实,但在没拿到签证那一刻,还得用悬而未决一词来形容。那份offer其实是有些附加条件的(也可称作conditional offer),其中最重要的一条则是必须取得博士学位的毕业函(awarding letter;也是在取得正式毕业证书前由研究生院出具的确认毕业函)。由于这是我唯一拿到的offer,我也不想再花精力申请其他岗位,所以当时对此十分珍惜。

因为我深知我在数据分析方面有“先天不足”,所以我在去之前,趁着十一后的周末,自费到上海参加单细胞测序分析的学习会。当时两天一夜的培训加上往返机票,差不多花掉了我一个月的生活费(毕竟延期毕业时的生活补贴远不及正常学习期间的奖学金),但我觉得物有所值。仅仅两天一夜的功夫,我认识了之前从未接触过的RStudio,从完全不懂R语言,到熟练操作数据框(dataframe),调用各种常用的数据分析包(如Seurat,Monocle,Tidyverse等等),使我信心大增。原来,拿到之前所谓的差异表达基因的excel表,无非是一行简单的FindAllMarkers代码;尽管统计学确实重要,但调用并修改各种函数中的参数,则需结合生物学背景,而这正好符合我的胃口。

虽有波澜,但最终我还是如愿以偿地毕业并去到了我想去的岗位。尽管实际工作中所面对的问题远比那次培训要复杂的多,但至少我不畏惧了,也非常感激开学习班的启蒙老师。不得不承认,当我深入下去,数据分析的水确实不比实验环节要浅;但做事情,多少都得带点儿兴趣。不忘初心,方得始终。

最开始我是一行行地写代码,偶有直接拿来,收为己用。后来发现太多代码是重复的,只是偶尔需变换文件地址,于是在我一朋友的指点下,学会了人生中R环境下的第一个for循环。尽管年幼无知,没谨慎区分内外循环的指针(如果外循环为i,则内循环至少应为j;但初学者在原有i循环基础上进行嵌套时,外循环容易误用作同一个i循环指针),结果经历了为时半天之久的大型翻车现场,终于从坑里爬了出来。再后来觉得for循环都太麻烦,于是开始写function。当我source不同function时觉得还是太麻烦,于是开始写包。来英国一年,从生信小白到开始写包也算是小有进步。

这里,不得不再次提提我校友Y叔的名言,这席话一直激励着我。

......学计算机出身的生信工作者很喜欢问学生物出身的生信工作者,你到底提出了什么算法?对理论有什么改进?而学生物出身的,多半就被戳到了软肋。我就对我学生说,“上游的让数据可用,而下游的让数据有用,没必要看不起自己”。每个不同背景的人都有自己的强项,做好自己就行。其实处于鄙视链最底部的生信工具使用者,真正做得好,能解决生物学问题,会讲生物学故事的人,才是发展的最好的。

Y叔叔(YuLabSMU)的【聚众读博】

虽然我未曾见过Y叔本人,但他写的包,特别是clusterProfiler和ggtree已经风靡全球。当时我这边的师兄带我做分析,就是用的Y叔的包,瞬间感觉很亲切。但我同时也在问自己,Y叔以身作则给我们所有师弟师妹树立了非常好的榜样,我能不能也为这个领域的发展做些许贡献?时间也许会给出相应的答案。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存